【レポート】これからのデータウェアハウス選択ポイントと Amazon Redshift による解決 #AWSSummit
お久しぶりです。新卒エンジニアのハウンです?
4か月前ぐらいにAWS Summit Onlineが開催されましたが、なんと今月に日本でもSummitが開催されました!以前レポートブログを投稿したところ、色々な方に感謝の言葉いただいたり、勉強にも役立っていたので、今も記憶に残っています。
AWS Summit Online Japanは 9/8~9/30、ライブセッションを見逃してしまってもオンデマンドで視聴が可能です。
今回もセッションに参加しましたことで、「これからのデータウェアハウス選択ポイントと Amazon Redshift による解決」レポートブログを残しておきます。
他の方々のセッションブログもまだまだ投稿される予定ですので、是非よろしくお願い致します!
セッション情報
- スピーカ:AWSJ 大薗 純平さん
- 概要
過去数十年にわたり、企業のデータ分析を支える重要なコンポーネントであり続けているデータウェアハウスですが、分析ニーズの多様化が進む現代では、求められる要件が広がりつつあります。本セッションでは、これからのデータウェアハウスを選択するうえで考えるべきポイントについて 1 つ 1 つ解説していきながら、進化し続けるマネージドデータウェアハウスである Amazon Redshift がそれらをどう解決していくかについて、性能、拡張性、セキュリティ、運用性、データレイクとの連携など様々な観点からお話をしていきます。
対象者とゴール
- 対象者:データウェアハウス(DWH)を業務で使用しており、DWHについての知識・理解のある方
- ゴール
- DWHを運用する上で課題になりがちな点を抑え、DWHに求められるものを認識する
- Amazon Redshiftが上記の課題をどのように解決できるのかについて理解する
- 本セッションでお話しないこと
- DWHやデータ分析そのものに関する基本的な説明
- Amazon Redshiftを含む各種AWSサービスの細かな仕様や設定などの解説
DWH2つのかたち
統合型
- DWH機能を一箇所に集約
- IT部門など特定の部署が管理する、エンタープライズDWHに多い形
- より全体のガバナンスは効かせやすくなる
目的型
- 組織や用途に応じて、DWH機能を分離
- それぞれの利用部門/チームが、自分たちの裁量でDWHを管理するケースも増えている
- 新たな分析の取り組みをスピーディに行いやすい
データウェアハウスにまつわる課題
ビジネス変化への対応が困難
→ ビジネスが変化すればワークロードも変化するけど、システム側が変化に柔軟に対応できる構成になっていない
パフォーマンスSLAの維持
→ DWHは常に成長し続け、データもユーザーも分析ニーズも増えているのに、守るべきSLAは変わりづらい
データのサイロ化と権限管理
→ 個別最適を求めるとデータのサイロ化が発生しやすくなり、ビジネスの成長や外部環境の変化に対応できる権限管理の仕組みになっていない
これからのデータウェアハウス選択のポイント
DWHを取り巻く環境の変化
- データ容量/種類の爆発的増加
- あらゆるデータを繋げて洞察を得たい
- クラウドへの移行の加速
データレイクという考え方
- すべてのデータをスケールする形で、かつ低コストで一箇所に集めて保存するためのもの
- 適切にアクセスコントロールを定義したうえで、データをセキュアに保持することができるもの
- 「民主化」した形での組織内のデータアクセスを可能とする
- 新しいデータ分析を、素早くかつ簡単に実行することができる
データレイクの構成
- 全データをデータレイクに集約することでデータのサイロ化を解消
- DWHには必要なデータのみ連携し、ビジネスの変化や時間の経過と共に必要に応じてデータレイクに書き戻す
これからのデータウェアハウスに求められるもの
- 柔軟性とスケーラビリティ
- 事業のフェーズやビジネスの変化に応じてコスト効果高く、柔軟に構成を変えたり、必要なときに必要なリソースを拡張できること
- 高いベースラインパフォーマンスと運用管理機能
- デフォルトで高いパフォーマンスを出しつつ、ユーザーによるチューニング余地も持てること
- データレイク連携とセキュリティ
- DWHをデータレイクにまで簡単に拡張し、コストを抑えた形でデータを分析可能にし、さらにきめ細やかな権限の管理ができること
Amazon Redshiftによる解決
Amazon Redshiftとは
Amazon Redshiftのアーキテクチャ(RA3)
柔軟性とスケーラビリティ
- Elastic Resize
-
- 必要な時に必要な分のリソースを自動的にスケールアップ/アウト
- Concurrency Scaling
-
- 同時アクセスが急増した場合でも、クラスターを自動追加して並列処理
高いベースラインパフォーマンスと運用管理機能
- 分析に特化したアーキテクチャ
- 列指向ストレージとクエリオプティマイザ
- SQLの並列分散実行
- 結果キャッシュ
- 継続的なパフォーマンス最適化
- ベースラインパフォーマンスが半年で2倍以上に
-
- 継続的パフォーマンス改善
- テーブルメンテナンスやワークロード管理の自動化
- 実行時間の短いクエリのスループットを高速化
- 運用管理機能を活用したチューニング
- ワークロード管理(WLM)とクエリ優先度
-
- マテリアライズドビュー
- チューニングアドバイザ
データレイク連携とセキュリティ
- Redshift Spectrum
-
- Redshift から S3 データレイクに直接、高速にクエリ可能
- S3 データレイク上のデータのインポート/エクスポートも可能
-
- AWS Lake Formation との連携
-
-
- 権限管理の一元化が可能
- Lake Formation経由でRedshift Spectrumがアクセスするオブジェクトに対し、テーブルや列レベルでのアクセスコントロールが可能
-
- 簡単できめ細やかな権限管理機能
- データべース、スキーマ、テーブルなど幅広い精度でアクセスコントロール設定可能
- 列レベルアクセスコントロールの設定
- 既存のオブジェクトの構造を変えずにセンシティブデータのセキュリティを保護
まとめ
- 従来のDWHにおけるよくある課題
- ビジネス変化への対応が困難
- パフォーマンスSLAの維持
- データのサイロ化と権限管理
- 課題解決のために
- システムのライフサイクルや制限にビジネス要件を合わせ、ビジネスの変化に対応しやすいDWHを選択することが重要
- データレイクを中心とした形で Amazon Redshift を活用 → 新しい形の分析環境を作っていく
所感
従来のDWHの課題から解決までというフローでお話を聞けてよかったです。
Redshiftの機能についておさらいできたことや、Redshiftのパフォーマンスが上昇し続けていることを実感することができました。また、Redshiftがマネージドサービスということで自動的に発展していくサービスという言葉が非常に魅力的な部分だと思いました。
私はRedshiftを使い始めてまだ間もないのですが、AWSのサービスとの連携が簡単な部分に関してはすごく使いやすいなという印象を受けています。
もし、DWHを使いたい、今のDWHがすこし心配という状況でしたら、Amazon Redshiftを使用してみてはいかがでしょうか。